现代科学中的概率论:物理的清晰比数学的严格更重要丨展卷
加星标,才能不错过每日推送!方法见文末动图
《概率论沉思录》(Probability Theory: The Logic of Science)是美国物理学家杰恩斯(E. T. Jaynes,1922-1998)关于概率论在科学研究中应用的经典著作。杰恩斯是最早意识到概率论可视为传统亚里士多德逻辑的扩展的人之一,他将拉普拉斯、贝叶斯、哈罗德·杰弗里斯、考克斯和香农等人的思想与成果综合为一个现代概率推理框架,将概率和统计推断作为整个科学的逻辑基础,对现代数学和科学产生了深远影响。《概率论沉思录》既是一本数学书,也是一本科学哲学与逻辑学书,甚至一本生活智慧书。书中提供大量生活实例和常识的解读,也讲述了概率统计的历史脉络,在物理学、数学、经济学、生物学等领域中的广泛应用。
点击下图,即可购书
本文经授权节选自《概率论沉思录》(人民邮电出版社,2024年6月)“编者序”和“前言”部分内容。
编者序
埃德温·汤普森·杰恩斯(Edwin Thompson Jaynes)于1998年4月30日去世。去世之前,他请我帮助完成并出版他的这本概率论著作,我为此苦恼了一段时间,因为我知道杰恩斯希望完成本书,这一点毫无疑问。遗憾的是,后面大部分章节(杰恩斯设想的关于应用的第二部分)要么缺失,要么不完整,而且前面的一些章节中也有缺失的片段。我本可以写完后面的章节并填补缺失的片段,但是,如果我这么做,本书就不再是杰恩斯的著作,而是杰恩斯和布雷特索斯特(G. Larry Bretthorst)的合著作品,并且无法分辨哪些文字出自哪位作者。最后,我决定让有缺陷的章节保持原状——本书仍是杰恩斯的著作。
有许多不同长度的缺失片段,杰恩斯是通过插入“未完待续”来标识的。我本可以在正文中留下这些标识,但是这将使本书显得很难看且很不完整。杰恩斯希望本书既可以充当参考书也可以充当教科书,因此在大多数章节中散布着问题框(练习)。最终,我决定引入“新编练习”来代替“未完待续”。如果你能回答这些问题,就说明已经掌握了缺失的内容。
杰恩斯曾想在书中保留一系列实现某些计算过程的计算机程序。我原本也打算在书中保留这些程序,但是,随着时间的推移,许多程序显然已经不再可用:它们是用 BASIC 语言以一种非常晦涩的方式写成的(不是 BASIC 晦涩,而是程序本身晦涩)。因此,我删除了这些程序,并在必要时插人了几句话,以引导人们使用必要的软件工具来实现计算。
书中还缺少许多参考资料信息,必须补充,通常,通过作者和日期可以找到一个或多个可能的参考资料,当有多个候选资料,而我又无法确定杰恩斯引用的是哪一个时,我就会列出多个参考资料并修改引文,有时候信息非常模糊,以至于找不到合适的候选资料。幸运的是,我能够删除这些引文而不产生不利影响。为了使读者能够区分引用材料和其他资料来源,杰恩斯带注释的原始参考资料分为两部分:引用文献(reference list)和参考文献(bibliography)。虽然我是本书出版的主要负责人,但并不是唯一付出努力的人,杰恩斯的些挚友帮助我完成了这项工作,其中包括 Tom Grandy、Ray Smith、Tom Loredo、Myron Tribus 和 John Skilling,我要感谢他们的帮助。我还要感谢 Joe Ackerman允许我抽出大量时间来悉心出版本书。
G.拉里·布雷特索斯特
本书的读者应该:(1)熟悉应用数学,具有相关专业本科高年级及以上文化程度;(2)了解需要进行推断[1]的某一学科,如物理学、化学、生物学、地质学、医学、经济学、社会学、工程学、运筹学等,学习本书不需要事先熟悉概率论与统计学,事实上,对这一领域知之甚少或许更理想,因为这样需要抛弃的固有观念会较少。
我们关注的是概率论及其所有常规数学知识,不过审视视角比标准教科书更广:第1章之后的每一章中都有一些新结论,我们认为这些结论是有趣且有用的书中的许多应用超出了传统概率论的范畴,但是我们认为其结论不言而喻,它们阐述的理论将成为未来的“传统概率论”内容。
历史
本书的写作其实源于1956年在斯坦福大学举办的一系列讲座的笔记,这些讲座的目的是讲解波利亚关于“数学与合情推理”的令人振奋的新著作[2]。他将我们直观的“常识”分解为一组基本的定性条件,并且表明:数学家一直在使用它们来引导发现的过程,而且这种引导必然发生在找到严格证明之前,这些结果很像詹姆斯·伯努利的《猜度术》(James Bernoulli,1713)中古典概率论的内容在它的基础上,拉普拉斯在18世纪晚期发展出了分析概率论文[3]。但是波利亚认为这种相似性只是定性的。
波利亚对这种定性一致性做出了完整而详尽的展示,说明合情推理与概率论之间一定存在更多联系。幸运的是,应用考克斯的一致性定理足以证明这一点。将波利亚的定性条件与考克斯的一致性定理结合起来就能证明:如果合情程度由实数表示,那么只能确定唯一一套用于推断的定量规则。也就是说,与其矛盾的任何其他规则都必然会违反一条基本的合理性条件或者一致性原则。
但是,最终结果只是丹尼尔·伯努利和拉普拉斯已经得出的概率论的标准规则。那又有什么值得大惊小怪的呢?这里重要的新特征是:这些规则现在被视为唯一有效的一般性逻辑原则,不涉及“偶然性”或“随机变量”。因此,它们的应用范围远远大于20 世纪早期发展起来的传统概率论。结果就是,“概率论”与“统计推断”之间的假想区别消失了,该领域不仅实现了逻辑上的统一性和简单性,而且在应用中有更强的效力与灵活性。
因此,这些讲座把重点放在推演波利亚观点的定量规则上,以便将该规则用于科学推断的一般性问题。几乎所有的推断问题都产生于不完全的信息,而非“随机性”。第5章将介绍波利亚的生平及这项工作是如何开始的。一旦涉及应用,哈罗德·杰弗里斯的著作就又成为我关注的焦点,他凭着直觉获得了许多洞见,并且几乎预见了我后来遇到的每一个问题。本书的献词只是我对他的感激之情的部分体现,对他著作的更多评论及其对我的影响分散在多个章节中。
1957~1970年,这些讲座不断在其他许多大学和研究实验室举办,内容不断增加。[4]在这一过程中,人们逐渐明白,传统的“统计推断”的突出困难很容易被理解和克服。但是,取而代之的规则在概念上非常微妙,需要深入思考才能明白如何正确运用,人们过去认为运用拉普拉斯的概率论方法会导致某些不可克服的困难,从而拒绝这些方法,他们最终明白这些困难只是由误用概率论方法造成的,通常是因为没有明确地定义问题或者没有意识到看似微不足道的信息存在重要的影响。一旦意识到这一点,原先的困难就很容易被克服。我们的“扩展逻辑”方法与通常的“随机变量”方法之间的各种关系以不同的形式出现在几乎每一章中。
最终,我积累的材料多到无法被囊括在一系列简短的讲座中,本书的用途也演化到了教学之外,在克服原有困难之后,我们发现已经有了处理新问题的强大工具。大约自 1970年以来,材料一直在以同样的速度增加,但是主要来自我及同事的研究活动,我们希望本书的最终版本能体现材料来源的多样性,既可用作教科书,也可用作参考书。事实上,我的好几批学生已经把早期几个版本的笔记传授给了他们的学生。
综上所述,我们在这里引用查尔斯:达尔文在《物种起源》绪论中所写的话:“我希望读者原谅我赘述这些个人的细枝末节,我只是想借此说明,我未曾仓促立论而已。”[5]人们可能会认为 30 年前的著作在今天已经过时了.幸运的是,杰弗里斯、波利亚和考克斯的著作是基础性且永恒的,其中的真理并不随着时间而改变,其重要性反而会随着时间的推移而上升,他们对于推断本质的洞察在 30 年前只是令人好奇,而今在几个科学领域中愈显重要,并会在未来100年的所有领域中都至关重要。
陈述风格
我从许多经验中学到,首先强调问题的逻辑而不是数学在早期阶段是必要的。对于现在的学生来说,数学是最容易的部分:一旦问题被简化为一个明确的数学习题,大多数学生可以毫不费力地解决它并且不断地推广它,不需要书本或老师的进一步帮助。让他们感到困惑、不确定如何前进的通常是概念性问题(如何在现实问题和抽象数学之间建立初始联系)。
最近的事实表明,任何莽撞到将自己的工作描述为“严格”的人都难免栽跟头。因此,我们只声称不会故意提出错误的论证,我们也意识到,要面向广泛、形形色色的读者写作,对于他们中的大多数人来说,意义的明晰比数学上的狭义“严格”更重要。
将重点放在逻辑和清晰度上还有两个更重要的原因。首先,没有什么论证比它的前提更可靠,正如哈罗德·杰弗里斯指出的,那些极为强调数学严格性的人正是对现实世界缺乏确定感的人,他们将论证与不切实际的前提联系起来,从而切断了与现实世界的联系。杰弗里斯将这种情形比喻为试图通过在石膏中锚入钢梁来加固建筑物。能凭直觉说明结论为什么正确的论证实际上更值得信赖,更有可能在科学中获得永恒的地位,而不是在未作理解的情况下展示所谓“数学严格性”的论证。
其次,我们必须认识到,在已经拥抱了无限集合理论的数学中没有真正值得信赖的严格性标准。与杰弗里斯的比喻类似,莫里斯·克莱因(Morris Kline,1980第 351 页)说:“会有人用无限集合的理论或者选择公理设计桥梁吗?桥梁难道不会倒塌吗?”今天,唯一拥有真正严格性的是有限整数的有限集合上的基本算术运算,如果将这一点铭记于心,我们自己的桥梁将是最安全的,是不会倒塌的。
当然,只要对结果有意义,我们就遵循这种有限集合策略,但是不要盲从。特别是,计算与逼近的技巧和基本原则所处的层次不同。因此,一旦通过严格地应用基本规则导出结论,就可以使用任何方便的分析方法进行计算或逼近(例如用积分代替求和),不必展示如何生成作为有限集合极限的不可数集合。
相比“正统”统计文献,我们更加严格地遵守概率论的数学法则。“正统”统计文献的作者们反复使用前面提到的凭直觉获得的特定工具,随意且不圆满地处理问题,而概率论法则本可以唯一且最优地处理这些问题,正是对概率论数学法则的严格遵守使我们避免了正统统计学中的人造悖论与矛盾。这将在第15章和第17章详细讨论。
同样重要的是,这一策略通常以两种方式简化了计算:(1)避免了确定“统计量”的抽样分布的问题,数据的证据完全展示在很容易写出的似然函数之中;(2)可以在计算之初消除冗余参数,从而减少搜索算法的维度,如果问题中存在多个参数,这就可能意味着相对于最小二乘法或最大似然算法有数量级上的参数减少。布雷特索斯特(Bretthorst,1988)的贝叶斯计算机程序充分展示了这些优点:相较于以前使用的方法,这个程序在某些情况下从数据中提取信息的能力有了重大改进。对于使用复杂贝叶斯模型所能做到的事而言,这仅仅是冰山一角,我们预计这一领域在不久的将来将得到迅猛的发展。
在能力与通用性方面,学会使用作为扩展逻辑的概率论的科学家比仅掌握了一堆无关的特定工具的人具有更大的优势,随着问题复杂性的增加,这种相对优势也会扩大。因此,我们认为,由于实际需要,未来所有定量科学的工作者都会以本书阐明的方式使用概率论,这一趋势已经在计量经济学、天文学、磁共振波谱学等领域中得到了证实,要在一个新的领域中取得进展,就需要对传统和权威持一种健康的怀疑与批判态度,这种传统和权威在整个20世纪都阻碍了我们的进步。
最后,需要提醒一些读者的是,不要试图在本书的文字中寻找并不存在的微妙含义。当然,我们将解释和使用概率统计的所有标准术语,因为这是我们的主题。除此之外,尽管关注逻辑推理的本质会导致我们讨论的许多问题与逻辑学家和哲学家们讨论的相同,但是我们的语言与他们的生硬术语还是有很大差别的:没有语言技巧,没有晦涩难懂的元语言,只是平实的叙述。我们认为这能将我们的信息清楚地传达给任何真正想要了解它的人,在任何情况下我们都确信,不停地追问“你说的‘存在’究竟是什么意思”并不能让我们明白更多。
致谢
1996年7月
注释
[1] 我们的意思很简单:“推断”(inference)是指有足够的信息用来进行的演绎推理,以及没有必要的信息时进行的归纳或合情推理——在实际问题中几乎总是如此。如果一个问题可以通过演绎推理解决,就不需要利用概率论。因此我们的主题是对不完全的信息的最优处理。
[2] George Pólya, Mathematics and Plausible Reasoning. Vol 1 & 2. Princeton University Press. 1954. ——编者注 [3] 1812 年,拉普拉斯的《分析概率论》出版,标志着概率论进入分析概率论阶段。对这部分历史感兴趣的读者可参考徐传胜的《从博弈问题到方法论学科——概率论发展史研究》(科学出版社,2010 年)。——译者注[4] 早期的一些材料由美孚石油公司于 1958 年在其“理论与应用科学学术研讨会讲座”系列中作为第 4 号作品发布。
[5] 摘自《物种起源》(苗德岁译,译林出版社,2013 年 10 月)。在此表示感谢。——编者注
埃德温·汤普森·杰恩斯(E. T. Jaynes,1922-1998),著名数学物理学家,曾任圣路易斯华盛顿大学和斯坦福大学教授,在统计力学和概率统计推断方面有杰出贡献。1957年发表了热力学的最大熵解释,1963年与弗雷德·卡明斯一起以完全量子化的方式模拟了电磁场中二能级原子的演化,该模型称为杰恩斯-卡明斯模型。杰恩斯大力提倡将概率论解释为逻辑的延伸。
相关阅读
2 人类理性是如何实现“概率转向”的?它真能满足决策需要吗?丨展卷
近期推荐
2 P/NP问题50年:基础理论举步维艰,但AI正在不可能中寻找可能
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
长按下方图片关注「返朴」,查看更多历史文章